MiX Knowledge

保护目标区域免受异类合作攻击者的侵害

分类： 系统与控制, 多代理系统, 系统与控制

作者： Yoonjae Lee, Goutam Das, Daigo Shishika, Efstathios Bakolas

发布时间： 2024-06-30

链接： http://arxiv.org/abs/2407.00762v1

摘要： 在本文中，我们研究了一个多智能体目标守卫问题，其中单个防御者试图捕获旨在到达高价值目标区域的多个攻击者。与之前的研究相比，本文假设攻击者是异构的，因为他们不仅具有不同的速度，而且具有代表其各自重要性程度的不同权重（例如，分配的资源量）。攻击方的目标是共同最小化他们与目标区域的最终接近程度的加权和，而防御方的目标是最大化相同的值。使用几何参数，我们构建了需要解决（可能是非凸）优化问题的候选均衡控制策略。随后，我们使用参数优化技术验证候选控制策略的最优性。最后，我们提供数值示例来说明攻击者团队中如何由于异构性而出现合作行为。

通过启发式自组织进行紧急人群分组

分类： 多代理系统, 图形, 机器人技术

作者： Xiao-Cheng Liao, Wei-Neng Chen, Xiang-Ling Chen, Yi Mei

发布时间： 2024-06-30

链接： http://arxiv.org/abs/2407.00674v1

摘要： 人群建模在游戏和计算机动画中有许多重要的应用。受现实生活中人群场景中出现的跟随效应的启发，在这项工作中，我们开发了一种对移动代理进行隐式分组的方法。我们通过分析每个代理周围的本地信息并相应地旋转其首选速度来实现这一目标。每个智能体可以自动与具有相似方向的相邻智能体形成隐式组。与显式组相比，隐式组没有严格的边界。如果智能体的方向由于位置变化而偏离其组，它将自主退出该组或加入另一个隐式形成的相邻组。这种隐式分组是在代理之间自主出现的，而不是由算法有意控制的。所提出的方法与许多人群模拟模型进行了比较，实验结果表明我们的方法在一些经典场景中实现了最低的拥堵水平。此外，我们证明调整代理的首选速度实际上可以减少其实际速度与原始首选速度之间的差异。我们的工作可以在线获取。

Pommerman 的多智能体训练：课程学习和基于群体的自对弈方法

分类： 多代理系统, 人工智能

作者： Nhat-Minh Huynh, Hoang-Giang Cao, I-Chen Wu

发布时间： 2024-06-30

链接： http://arxiv.org/abs/2407.00662v1

摘要： Pommerman 是一种多智能体环境，近年来受到了研究人员的广泛关注。该环境是多智能体训练的理想基准，为两个具有联盟智能体之间通信能力的团队提供了战场。由于延迟的行动效应、稀疏的奖励和误报，Pommerman 给无模型强化学习带来了重大挑战，其中对手玩家可能会因为自己的错误而失败。本研究引入了一种系统，旨在结合课程学习和基于群体的自我游戏来训练多智能体系统玩 Pommerman。在为竞技游戏部署多智能体训练系统时，我们还解决了两个具有挑战性的问题：稀疏奖励和合适的匹配机制。具体来说，我们提出了一种基于代理性能的自适应退火因子，以动态调整训练期间的密集探索奖励。此外，我们还实施了利用 Elo 评级系统的匹配机制来有效地配对代理。我们的实验结果表明，我们训练有素的智能体可以超越顶级学习智能体，而无需联盟智能体之间的通信。

CAMON：基于 LLM 对话的多对象导航协作代理

分类： 机器人技术, 计算和语言, 计算机视觉和模式识别, 多代理系统

作者： Pengying Wu, Yao Mu, Kangjie Zhou, Ji Ma, Junting Chen, Chang Liu

发布时间： 2024-06-30

链接： http://arxiv.org/abs/2407.00632v1

摘要： 视觉导航任务对于家庭服务机器人至关重要。随着这些任务变得越来越复杂，多个机器人之间的有效沟通和协作对于确保成功完成至关重要。近年来，大型语言模型（LLM）在具体代理的背景下表现出了卓越的理解和规划能力。然而，它们在家庭场景中的应用，特别是使用多个代理通过通信协作完成复杂的导航任务，仍有待探索。因此，本文提出了一个利用 LLM 支持的通信和协作的去中心化多智能体导航框架。通过设计沟通触发的动态领导组织结构，我们以更少的沟通次数更快地达成团队共识，从而获得更好的导航效果和协作探索效率。通过所提出的新颖的通信方案，我们的框架有望在多目标导航任务中实现无冲突且稳健，即使团队规模激增也是如此。

慢速和非均匀采样的 LFT 结构化描述符系统的识别

分类： 多代理系统

作者： Tong Zhou

发布时间： 2024-06-30

链接： http://arxiv.org/abs/2407.00629v1

摘要： 本文研究了连续时间多输入多输出描述符系统参数的时域辨识，这些参数通过线性分数阶变换影响系统矩阵。允许采样缓慢且不均匀，并且没有必要满足奈奎斯特频率。该模型可用于描述网络动态系统的行为，并且获得的结果可以直接应用于状态空间模型。分别得到了任意信号激励系统的瞬态响应和稳态响应的显式公式。推导了系统稳态响应与其传递函数矩阵之间的一些关系。建议采用参数估计算法。

学习控制未知的强单调游戏

分类： 多代理系统, 机器学习, 系统与控制, 系统与控制

作者： Siddharth Chandak, Ilai Bistritz, Nicholas Bambos

发布时间： 2024-06-30

链接： http://arxiv.org/abs/2407.00575v1

摘要： 考虑 $N$ 个玩家，每个玩家都有一个 $d$ 维的动作集。每个玩家的效用函数包括他们的奖励函数和每个维度的线性项，其系数由管理者控制。我们假设游戏是强单调的，因此如果每个玩家都运行梯度下降，动态就会收敛到唯一的纳什均衡（NE）。就全局性能而言，NE 通常效率低下。通过对 NE 施加 $K$ 维线性约束，可以提高系统的整体性能。因此，我们希望管理者选择对 NE 施加所需约束的受控系数。然而，这需要了解玩家的奖励函数和他们的行动集。在大规模网络中获取该游戏结构信息是不可行的，并且侵犯了用户的隐私。为了克服这个问题，我们提出了一种简单的算法，通过在线调整受控系数来学习移动游戏的 NE 以满足线性约束。我们的算法只需要线性约束违规作为反馈，不需要知道奖励函数或动作集。我们证明，我们的算法基于两个时间尺度随机近似，保证以概率 1 收敛到满足目标线性约束的 NE 集合。然后，我们为我们的算法提供 $O(t^{-1/4})$ 的均方收敛率。这是两个时间尺度随机近似的第一个这样的界限，其中较慢的时间尺度是具有非扩展映射的定点迭代。我们展示了我们的方案如何应用于优化 NE 的全局二次成本和资源分配游戏中的负载平衡。我们为这些场景提供算法的模拟。

论学习与社会理性主体群体合作的复杂性

分类： 机器学习, 人工智能, 计算机科学与博弈论, 多代理系统

作者： Robert Loftin, Saptarashmi Bandyopadhyay, Mustafa Mert Çelikok

发布时间： 2024-06-29

链接： http://arxiv.org/abs/2407.00419v1

摘要： 在现实世界中部署的人工智能代理将需要能够与人类（以及其他异构人工智能代理）可靠地进行合作。为了提供成功合作的正式保证，我们必须对伙伴代理如何合理行事做出一些假设。任何现实的假设都必须考虑到其他代理可能与我们的代理一样具有适应性这一事实。在这项工作中，我们考虑在有限重复、两人通用和矩阵游戏中与私人公用事业机构的 \textit{population} 合作的问题。这种情况下的两个自然假设是：1）群体中的所有主体都是独立的理性学习者，2）当群体中的任何两个成员配对在一起时，他们很有可能至少获得与他们将要获得的效用相同的效用。在某些帕累托有效均衡策略下。我们的结果首先表明，仅这些假设不足以确保与目标人群成员的 \textit{zero-shot} 合作。因此，我们认为 \textit{learning} 问题是一种利用先前观察其成员之间相互作用来与这样的群体合作的策略。我们提供了学习有效合作策略所需的样本数量的上限和下限。最重要的是，我们表明这些界限可能比“天真的”将问题简化为模仿学习所产生的界限要强得多。

C-MASS：利用二阶拓扑近似进行协作感知的组合移动感知传感器调度

分类： 机器人技术, 信息论, 多代理系统, 网络和互联网架构, 信息论

作者： Yukuan Jia, Yuxuan Sun, Ruiqing Mao, Zhaojun Nan, Sheng Zhou, Zhisheng Niu

发布时间： 2024-06-29

链接： http://arxiv.org/abs/2407.00412v1

摘要： 协作感知 (CP) 是一种很有前景的解决方案，可通过车辆到万物 (V2X) 网络在协作车辆 (CoV) 之间共享传感器数据，从而解决交通环境中的遮挡问题。由于无线带宽有限，CP 需要面向任务和接收器感知的传感器调度，以优先考虑重要且互补的传感器数据。然而，由于车辆的流动性，获得最新的感知拓扑（即 CoV 的组合是否可以联合检测物体）具有挑战性且成本高昂。在本文中，我们提出了一种具有最小通信开销的组合移动感知传感器调度（C-MASS）框架。具体来说，使用来自单个 CoV 和成对 CoV 的传感器数据重放检测结果，以维持高达二阶的经验感知拓扑，这大约代表了完整的感知拓扑。然后提出了一种混合贪婪算法来解决具有最坏情况性能保证的预算最大覆盖问题的变体。 C-MASS调度算法采用贪婪算法，结合拓扑不确定性和冠状病毒的未探索时间来平衡探索和利用，解决移动性挑战。大量的数值实验证明了所提出的 C-MASS 框架在边缘辅助和分布式 CP 配置中都接近最优。与对象级 CP 相比，加权召回率分别提高了 5.8% 和 4.2%。与基于距离和基于区域的贪婪启发法相比，与离线最优解的差距分别减少了 75% 和 71%。

BMW Agents——通过多代理协作实现任务自动化的框架

分类： 多代理系统, 人工智能

作者： Noel Crawford, Edward B. Duffy, Iman Evazzade, Torsten Foehr, Gregory Robbins, Debbrata Kumar Saha, Jiya Varma, Marcin Ziolkowski

发布时间： 2024-06-28

链接： http://arxiv.org/abs/2406.20041v3

摘要： 由大型语言模型 (LLM) 驱动的自主代理为自动化提供了巨大的潜力。这项技术的早期证据可以在代理解决复杂任务、与外部系统交互以增强其知识以及触发操作的各种演示中找到。特别是，涉及多个代理以协作方式解决复杂任务的工作流程体现了它们在不太严格和不太明确的环境中运行的能力。因此，多代理方法具有作为许多工业应用的支柱的巨大潜力，从复杂的知识检索系统到下一代机器人过程自动化。鉴于当前一代大语言模型的推理能力，复杂的流程需要采用多步骤方法，其中包括明确定义的模块化任务计划。根据复杂程度，这些任务可以由单个代理或一组代理执行。在这项工作中，我们专注于设计一个灵活的代理工程框架，并仔细关注规划和执行，能够处理跨各个领域的复杂用例应用程序。所提出的框架提供了工业应用中的可靠性，并提供了确保多个自主代理共同解决任务的可扩展、灵活和协作工作流程的技术。

在障碍丰富的环境中探索 6G 工业数字孪生和群体智能的潜力

分类： 机器人技术, 多代理系统

作者： Siyu Yuan, Khurshid Alam, Bin Han, Dennis Krummacker, Hans D. Schotten

发布时间： 2024-06-28

链接： http://arxiv.org/abs/2406.19930v2

摘要： 随着6G技术的出现，工业应用对高效智能系统的需求激增，推动了对目标定位先进解决方案的需求。利用群体机器人定位未知目标涉及在日益复杂的环境中导航。数字孪生 (DT) 通过创建物理世界的虚拟副本提供了强大的解决方案，从而增强了集群的导航能力。我们的框架利用DT并集成Swarm Intelligence，将物理地图信息存储在云端，使机器人能够有效地定位未知目标。仿真结果表明，与传统方法相比，通过群体智能增强的DT框架显着提高了障碍物丰富的环境中的目标定位效率。这项研究强调了将 DT 和群体智能相结合以推进复杂工业环境中的机器人导航和目标定位领域的潜力。

FootBots：基于 Transformer 的足球运动预测架构

分类： 计算机视觉和模式识别, 多代理系统

作者： Guillem Capellera, Luis Ferraz, Antonio Rubio, Antonio Agudo, Francesc Moreno-Noguer

发布时间： 2024-06-28

链接： http://arxiv.org/abs/2406.19852v1

摘要： 足球运动预测涉及从球员和球的相互作用中捕捉复杂的动态。我们提出了 FootBots，一种基于编码器-解码器转换器的架构，通过等方差属性来解决运动预测和条件运动预测。 FootBots 使用设置注意力块和多注意力块解码器捕获时间和社会动态。我们的评估使用两个数据集：真实的足球数据集和定制的合成数据集。来自合成数据集的见解凸显了 FootBots 社交注意力机制的有效性以及条件运动预测的重要性。真实足球数据的实证结果表明，FootBots 在运动预测方面优于基线，并且在条件任务中表现出色，例如根据球的位置预测球员、根据球和防守（进攻）球队预测进攻（防守）球队，并根据所有球员预测球的位置。我们的评估将定量和定性的发现联系起来。 https://youtu.be/9kaEkfzG3L8

基于点云数据的多无人机端到端分布式轨迹生成

分类： 多代理系统

作者： Antonio Marino, Claudio Pacchierotti, Paolo Robuffo Giordano

发布时间： 2024-06-28

链接： http://arxiv.org/abs/2406.19742v1

摘要： 本文介绍了一种专为多无人机系统量身定制的端到端轨迹规划算法，该算法利用点云数据在充满静态和动态障碍物的环境中生成无碰撞轨迹。我们的方法由一个 2 叉神经网络组成，该网络提供传感和定位数据，能够在代理之间传达中间学习的特征。一个网络分支精心设计初始无碰撞轨迹估计，而另一个网络分支则设计用于后续优化的神经碰撞约束，确保轨迹连续性并遵守物理驱动限制。在具有挑战性的杂乱环境中进行的广泛模拟（涉及多达 25 个机器人和 25% 的障碍物密度）显示，避碰成功率在 100 - 85% 范围内。最后，我们介绍了一种作用于点云数据的显着图计算方法，为我们的方法提供了定性见解。

使用信念图辅助训练的多智能体合作博弈

分类： 多代理系统, 机器学习

作者： Qinwei Huang, Chen Luo, Alex B. Wu, Simon Khan, Hai Li, Qinru Qiu

发布时间： 2024-06-27

链接： http://arxiv.org/abs/2406.19477v1

摘要： 在多智能体系统中，智能体共享其本地观察结果，以获得全局态势感知，以便使用消息传递系统进行决策和协作。何时发送消息、如何对消息进行编码以及如何利用接收到的消息直接影响代理之间协作的有效性。当使用强化学习（RL）训练多智能体合作游戏时，消息传递系统需要与智能体策略一起优化。因此，这增加了模型的复杂性，并对学习的收敛和性能提出了重大挑战。为了解决这个问题，我们提出了信念图辅助多智能体系统（BAMS），它利用神经符号信念图来增强训练。置信图解码智能体的隐藏状态，以提供智能体对环境和其他智能体状态的理解的符号表示。符号表示的简单性允许收集真实信息并将其与信念进行比较，这为学习提供了额外的反馈渠道。与强化学习中奖励的零星且延迟的反馈相比，信念图的反馈更加一致和可靠。使用 BAMS 的代理可以学习更有效的消息传递网络，以更好地相互理解，从而在具有不同地图复杂程度的合作捕食者和猎物游戏中获得更好的性能，并将其与以前的多代理消息传递模型进行比较。模拟结果表明，BAMS 减少了 66% 的训练周期，应用 BAMS 模型的智能体完成游戏的步数平均减少了 34.62%。

使用 Voronoi 区域整形进行协作目标捕获

分类： 多代理系统

作者： Gautam Kumar, Ashwini Ratnoo

发布时间： 2024-06-27

链接： http://arxiv.org/abs/2406.19181v1

摘要： 本文讨论了在平面场景中使用多个追踪器捕获目标的合作策略。给定追踪者的初始位置分布，使用 Voronoi 图来表征目标的邻近区域。关键思想是使用将其顶点指向其瞬时质心的策略来动态塑造该区域。对所得动力学的分析推断出追赶者的速度控制输入。主要结果是，无论其速度和规避策略如何，目标的邻近区域都会呈指数缩小。仿真结果证明了该方法的特点。

通信约束下的编队：控制性能满足通道容量

分类： 多代理系统

作者： Yaru Chen, Yirui Cong, Xiangyun Zhou, Long Cheng, Xiangke Wang

发布时间： 2024-06-27

链接： http://arxiv.org/abs/2406.18961v1

摘要： 在基于无线通信的编队控制系统中，控制性能受到代理之间每个通信链路的信道容量的显着影响。然而，在现有研究中，这种关系仍未得到充分研究。为了解决这一差距，在考虑通道容量的情况下，考虑了具有有限过程噪声的经典二阶多智能体系统的编队控制问题。更具体地说，首先基于一个新概念——保证通信区域——建立代理之间的通信链路模型，该概念描述了在控制系统不确定性的情况下成功消息解码的所有可能位置。此外，我们严格证明，保证通信区域不会随着传输时间无限制地增加，这表明保证通信区域和数据速率之间的重要权衡。还获得了任何所需精度的数据速率的基本限制。最后，提出了实现所需编队精度的集成设计，其中开发了基于估计的控制器和发射功率控制策略。

Geode：具有显式推理和精确时空检索的零样本地理空间问答代理

分类： 计算和语言, 人工智能, 多代理系统

作者： Devashish Vikas Gupta, Azeez Syed Ali Ishaqui, Divya Kiran Kadiyala

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2407.11014v1

摘要： 大型语言模型 (LLM) 在从不同形式的数据中学习信息并将其置于上下文中已显示出有希望的结果。基础模型的最新进展，特别是那些采用自注意力机制的模型，显着增强了我们理解不同数据类型语义的能力。可以从多模态中受益匪浅的领域之一是理解地理空间数据，它本质上具有多种模态。然而，当前的自然语言处理（NLP）机制难以有效地解决地理空间查询。现有预训练的大语言模型不足以满足地理空间数据的独特需求，缺乏实时检索精确时空数据的能力，从而导致回答复杂地理空间查询的准确性显着降低。为了解决这些限制，我们引入了 Geode——一种开创性的系统，旨在使用时空数据检索高精度地解决零样本地理空间问答任务。我们的方法在解决当前 LLM 模型的局限性方面取得了显着进步，与现有最先进的预训练模型相比，证明了地理空间问答能力的显着提高。

用于高效通信的去中心化学习的差分误差反馈

分类： 多代理系统, 机器学习, 信号处理

作者： Roula Nassif, Stefan Vlaski, Marco Carpentiero, Vincenzo Matta, Ali H. Sayed

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18418v1

摘要： 用于分散学习和优化的通信受限算法依赖于本地更新以及压缩信号的交换。在这种情况下，差分量化是一种有效的技术，可以通过利用连续迭代之间的相关性来减轻压缩的负面影响。此外，误差反馈的使用（包括将压缩误差合并到后续步骤中）是补偿压缩引起的偏差的强大机制。在错误反馈下，迄今为止，文献中的性能保证主要集中在使用融合中心或一类特殊的压缩压缩器的算法上，而这些压缩器无法用有限的位数来实现。在这项工作中，我们提出了一种新的分散式通信高效学习方法，它将差分量化与误差反馈相结合。该方法专门针对分散式学习问题而设计，其中代理具有单独的风险函数，以最大限度地减少子空间约束，这些子空间约束要求整个网络的最小化器位于低维子空间中。这种约束公式包括作为特殊情况的共识或单任务优化，并允许更通用的任务相关性模型，例如多任务平滑性和耦合优化。我们表明，在压缩噪声的一些一般条件下，对于足够小的步长 $\mu$，所得到的通信高效策略在均方误差和平均比特率方面都是稳定的：通过减少 $\ mu$，可以将估计误差保持在较小的水平（大约为$\mu$），而无需将比特率无限增加为$\mu\rightarrow 0$。结果表明，在小步长范围和有限位数的情况下，可以获得在没有压缩的情况下可实现的性能。

使用基于代理的建模工具 PhysiBoSS 构建多尺度模型

分类： 定量方法, 多代理系统, 细胞行为, 组织和器官

作者： Marco Ruscone, Andrea Checcoli, Randy Heiland, Emmanuel Barillot, Paul Macklin, Laurence Calzone, Vincent Noël

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18371v1

摘要： 多尺度模型提供了一种独特的工具来研究复杂的过程，研究跨空间和时间在不同尺度上发生的事件。在生物系统的背景下，此类模型可以模拟细胞内水平（例如信号传导）以及细胞与其他细胞通信和协调的细胞外水平发生的机制。他们的目的是了解在复杂疾病中观察到的遗传或环境失调的影响，描述病理组织和免疫系统之间的相互作用，并提出恢复患病表型的策略。这些多尺度模型的构建仍然是一项非常复杂的任务，包括选择要考虑的组件、要模拟的过程的详细程度或参数与数据的拟合。另一项困难是用 C++ 或 Python 等语言对这些模型进行编程需要专业知识，这可能会阻碍非专家的参与。通过结构化描述形式（再加上图形界面）简化此过程对于使更广泛的科学界更容易进行建模以及简化高级用户的过程至关重要。本文介绍了依赖于 PhysiBoSS 框架的三个多尺度模型示例，PhysiBoSS 是 PhysiCell 的一个附加组件，其中包括作为基于代理的方法的连续时间布尔模型的细胞内描述。本文演示了如何依靠 PhysiCell Studio（PhysiCell 图形用户界面）轻松构建此类模型。分步教程作为补充材料提供，所有模型均在以下网址提供：https://phyboss.github.io/tutorial/。

具有两个竞争阶级的社会中社会等级制度的出现

分类： 物理与社会, 计算复杂度, 多代理系统, 数据分析、统计和概率

作者： Marc Sadurní, Josep Perelló, Miquel Montero

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18168v1

摘要： 描述个体之间社会互动的基于主体的模型可以帮助更好地理解社会中新兴的宏观模式。值得讨论的主题之一是城市等社会空间中出现的不同类型等级制度的形成。在这里，我们通过添加第二类代理提出了一个类似 Bonabeau 的模型。我们模型的基本特殊性是只允许相反类别的代理之间的成对交互。因此，主体适应度只能通过两个类别之间的竞争来改变，而社会的总适应度保持不变。主要结果是，对于较大范围的模型参数值，除了一个或极少数代理捕获了社会中几乎所有的适应度外，每一类代理的适应度都随着时间的推移而呈现衰减。数值模拟还揭示了每个阶级从平等社会到等级社会的独特转变。这种行为取决于控制参数$\eta$，起到系统温度倒数的作用。结果与系统规模无关，仅取决于每个类别中代理的数量。最后，提供了几个缩放定律，从而显示了不同模型参数的数据崩溃，并且它们遵循可能与模型中相变的存在相关的形状。

合作多智能体强化学习的内在行为倾向一致性

分类： 多代理系统

作者： Junkai Zhang, Yifan Zhang, Xi Sheryl Zhang, Yifan Zang, Jian Cheng

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2406.18152v1

摘要： 集中训练与分散执行（CTDE）范式的高效协作仍然是协作多智能体系统中的一个挑战。我们认为智能体之间不同的行动倾向是 CTDE 训练效率的重大障碍，需要大量的训练样本才能对智能体的策略达成统一的共识。这种分歧源于 CTDE 学分分配过程中缺乏足够的与团队共识相关的指导信号。为了解决这个问题，我们提出了内在行动倾向一致性，这是一种协作多智能体强化学习的新方法。它将通过行动模型获得的内在奖励集成到奖励附加 CTDE (RA-CTDE) 框架中。我们制定了一个动作模型，使周围的智能体能够预测中心智能体的动作倾向。利用这些预测，我们计算了一个合作内在奖励，鼓励代理将他们的行为与邻居的预测相匹配。我们通过理论分析建立了 RA-CTDE 和 CTDE 之间的等价性，证明 CTDE 的训练过程可以使用智能体的个体目标来实现。基于这一见解，我们引入了一种将内在奖励和 CTDE 结合起来的新颖方法。在 SMAC 和 GRF 基准测试中对挑战性任务进行的广泛实验展示了我们方法的性能改进。

多模态大语言模型 (MLLM) 中的视觉推理和多代理方法：解决 TSP 和 mTSP 组合挑战

分类： 人工智能, 新兴技术, 计算机科学与博弈论, 多代理系统

作者： Mohammed Elhenawy, Ahmad Abutahoun, Taqwa I. Alhadidi, Ahmed Jaber, Huthaifa I. Ashqar, Shadi Jaradat, Ahmed Abdelhay, Sebastien Glaser, Andry Rakotonirainy

发布时间： 2024-06-26

链接： http://arxiv.org/abs/2407.00092v1

摘要： 多模态大型语言模型 (MLLM) 利用涵盖文本、图像和音频的综合知识来熟练地解决复杂问题，包括零样本上下文学习场景。本研究探讨了 MLLM 使用描绘二维平面上点分布的图像直观地解决旅行商问题 (TSP) 和多重旅行商问题 (mTSP) 的能力。我们引入了一种在 MLLM 框架内采用多个专门代理的新颖方法，每个代理都致力于针对这些组合挑战优化解决方案。我们的实验研究包括对零样本设置的严格评估，并引入创新的多智能体零样本上下文场景。结果证明了这两种多智能体模型。 Multi-Agent 1，包括Initializer、Critic和Scorer代理，Multi-Agent 2，仅包括Initializer和Critic代理；显着提高了 TSP 和 mTSP 问题的解决方案质量。 Multi-Agent 1 在需要详细路线细化和评估的环境中表现出色，为复杂的优化提供了强大的框架。相比之下，Multi-Agent 2 专注于初始化器和 Critic 的迭代细化，事实证明对于快速决策场景是有效的。这些实验产生了有希望的结果，展示了 MLLM 在解决各种组合问题方面强大的视觉推理能力。这些发现强调了 MLLM 作为计算优化中强大工具的潜力，提供了可以激发这一前景广阔领域进一步发展的见解。项目链接：https://github.com/ahmed-abdulhuy/Solving-TSP-and-mTSP-Combinatorial-Challenges-using-Visual-Reasoning-and-Multi-Agent-Approach-MLLMs-.git

过度泛化的挑战

分类： 机器学习, 人工智能, 多代理系统

作者： Constantin Ruhdorfer, Matteo Bortoletto, Anna Penzkofer, Andreas Bulling

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17949v1

摘要： 我们引入了 Overcooked 泛化挑战（OGC）——第一个研究智能体在 Overcooked-AI 环境中面对新伙伴和水平时的零样本合作能力的基准。这种观点与之前的大量工作形成鲜明对比，这些工作仅在同一水平上训练和评估合作代理，未能捕获现实世界中人类与人工智能合作所需的泛化能力。我们的挑战与最先进的双课程设计 (DCD) 方法相结合，生成自动课程，用于培训 Overcooked 中的一般代理。它是第一个专门为 DCD 方法设计的协作多智能体环境，因此也是第一个以最先进的方法为基准的环境。它完全由 GPU 加速，基于 DCD 基准测试套件 minimax 构建，并根据开源许可证免费提供：https://git.hcics.simtech.uni-stuttgart.de/public-projects/OGC。我们表明，当前的 DCD 算法很难在这一新的挑战中产生有用的策略，即使与专为可扩展性和通用性而设计的最新网络架构相结合。 OGC 使研究界能够研究泛化对合作代理的影响，从而突破了现实世界中人类与人工智能合作的界限。

通过最佳交通实现社会影响力最大化的公平性

分类： 社交和信息网络, 多代理系统

作者： Shubham Chowdhary, Giulia De Pasquale, Nicolas Lanzetti, Ana-Andreea Stoica, Florian Dorfler

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17736v1

摘要： 我们研究社会影响力最大化的公平性，即寻求选择在整个网络中传播给定信息的种子，确保不同社区（例如人口群体）之间的平衡外展。在文献中，公平性通常根据各个社区内的预期外展来量化。在本文中，我们证明这种公平性度量可能会产生误导，因为它们忽略了信息传播过程的随机性。当信息传播以概率方式发生时，可能会发生多种外展场景。因此，诸如“在 50% 的情况下，第 1 组中没有人收到信息，而第 2 组中的每个人都收到信息，而在其他 50% 的情况下，发生相反的情况”之类的结果，总是会导致很大程度上不公平的结果，被分类通过文献中的各种公平指标来衡量是公平的。我们通过设计一种新的公平性指标（相互公平性）来解决这个问题，该指标通过最佳交通理论捕获外展的可变性。我们提出了一种新的种子选择算法，可以优化外展和相互公平性，并在几个真实数据集上展示了其功效。我们发现我们的算法提高了公平性，而效率仅略有下降（有时甚至有所提高）。

CuDA2：一种将叛徒特工纳入协作多智能体系统的方法

分类： 机器学习, 人工智能, 密码学和安全, 多代理系统

作者： Zhen Chen, Yong Liao, Youpeng Zhao, Zipeng Dai, Jian Zhao

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17425v1

摘要： 众所周知，协作多智能体强化学习（CMARL）策略容易受到对抗性扰动的影响。以前关于对抗性攻击的工作主要集中在白盒攻击上，这些攻击通常在攻击数量有限的情况下直接扰乱受害者代理的状态或行为。然而，在现实环境中获得对受害者代理的完全访问权限是极其困难的。为了创建更真实的对抗性攻击，我们引入了一种新方法，将叛徒代理注入 CMARL 系统。我们将这个问题建模为叛徒马尔可夫决策过程（TMDP），其中叛徒不能直接攻击受害者代理，但可以通过碰撞影响他们的阵型或位置。在 TMDP 中，叛徒使用与受害者代理相同的 MARL 算法进行训练，其奖励函数设置为受害者代理奖励的负数。尽管如此，叛徒的训练效率仍然很低，因为他们很难将自己的行为与受害特工的奖励直接联系起来。为了解决这个问题，我们提出了好奇心驱动的对抗攻击（CuDA2）框架。 CuDA2增强了对指定受害者代理策略的攻击效率和攻击性，同时保持叛徒的最优策略不变性。具体来说，我们采用预先训练的随机网络蒸馏（RND）模块，其中 RND 模块生成的额外奖励鼓励叛徒探索受害者代理未遇到的状态。 SMAC 对各种场景的广泛实验表明，与其他基线相比，我们的 CuDA2 框架提供了相当或更好的对抗攻击能力。

迈向工业自动化自适应协调的超媒体环境

分类： 多代理系统, 人工智能

作者： Ganesh Ramanathan, Simon Mayer, Andrei Ciortea

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17816v1

摘要： 机电系统通过互连组件的网络管理物理过程。如今，对协调这些组件所需的交互进行编程很大程度上是一个手动过程。这个过程非常耗时，并且当系统功能发生变化时需要手动适应。为了克服这个问题，我们使用自主软件代理来处理系统的语义描述，以确定协调要求和约束；在此基础上，它们然后相互交互，以分散和协调的方式控制系统。我们的核心见解是，各个组件之间的协调要求最终很大程度上是由于组件之间潜在的物理相互依赖性，这可以是（并且在许多情况下，已经在自动化项目中进行了语义建模。然后，代理使用超媒体在运行时发现执行协调所需的计划和协议。我们方法的一个关键新颖之处是使用超媒体驱动的交互：它减少了系统中的耦合，并使其能够随着功能的变化而适应运行时。

基于 BDI 代理的无电池无线传感器实施的经验教训

分类： 多代理系统

作者： Ganesh Ramanathan, Andres Gomez, Simon Mayer

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17303v1

摘要： 由能量收集供电的无电池嵌入式设备越来越多地用于无线传感应用。然而，其有限且常常不确定的能源可用性给应用程序的设计带来了挑战。为了检验基于 BDI 的代理编程是否可以解决这一挑战，我们将其用于现实生活中的应用，其中涉及环境传感器，该传感器利用从环境光收集的能量。这首次在低功耗无电池和能量收集嵌入式系统上实现了 BDI 代理。此外，它还揭示了嵌入式系统和基于 BDI 的代理编程之间的概念集成挑战，如果克服这些挑战，将简化在具有非确定性能源可用性的低功耗设备上部署更多自主系统。具体来说，我们（1）将基本设备状态映射到默认的 \textit{internal} 信念，（2）认识到并解决了一般信念为 \textit{short-} 或 \textit{long-term} 的需求，以及（ 3）提出意图及其运行时能量影响的动态注释。我们表明，合并这些扩展不仅简化了编程，而且提高了代码的可读性和对其行为的理解。

vGOAL的模型检查

分类： 多代理系统, 03, F.4.1; F.4.3

作者： Yi Yang, Tom Holvoet

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17206v1

摘要： 发展自主决策需要安全保证。 AgentSpeak 和 Gwendolen 等代理编程语言提供了用于自主决策编程的工具。然而，尽管为将模型检查应用于这些语言做出了许多努力，但挑战仍然存在，例如代理程序和生成的模型之间的忠实语义映射、高效的模型生成和高效的模型检查。作为代理编程语言 GOAL 的扩展，vGOAL 已被提议正式指定强调安全性的自主决策。本文通过 vGOAL 的两个自动模型检查流程解决了上述挑战：一个用于计算树逻辑，另一个用于概率计算树逻辑。与现有的代理编程语言的模型检查方法相比，它具有三个主要优点。首先，它针对给定的 vGOAL 规范高效执行自动化模型检查分析，包括高效生成 NuSMV 和 Storm 的输入模型并利用这些高效的模型检查器。其次，为 vGOAL 的非确定性模型和概率模型建立语义等价性：从 vGOAL 到转换系统或 DTMC。第三，提出了一种有效检测错误的算法，这对于描述复杂场景的 vGOAL 规范特别有用。在具有三个自主移动机器人的现实自主物流系统中进行的验证和实验说明了 vGOAL 的自动化 CTL 和 PCTL 模型检查流程的效率和实际可用性。

使用人类自主团队优化野火监视和扑灭的分层框架

分类： 系统与控制, 多代理系统, 系统与控制

作者： Mahdi Al-Husseini, Kyle Wray, Mykel Kochenderfer

发布时间： 2024-06-25

链接： http://arxiv.org/abs/2406.17189v1

摘要： 有人和无人机的集成有助于改善野火响应。当第一响应者（执行野火管理的初始阶段（称为初始攻击））可用的资源无效或不足时，野火遏制失败就会发生。初始攻击监视和抑制模型已将行动空间和目标联系起来，这使得它们的优化在计算上具有挑战性。初始攻击可以被表述为多智能体部分可观察马尔可夫决策过程（MPOMDP）。我们将初始攻击 MPOMDP 分为监视和抑制过程，各自的规划器在不同但恒定的时间尺度上运行。分层框架在监视和抑制规划器之间迭代，同时还提供碰撞避免。该框架的例子是一组多旋翼无人机勘测初始攻击火力，同时一架有人驾驶直升机用水桶灭火。制定了针对野火的求解器扩展，以减少原本巨大的行动空间。在抽象和实际案例研究中进行模拟时，分层框架对于中度野火的性能优于消防技术和近视基线高达 242％，对于快速野火的性能优于消防技术和近视基线 60％。我们还使用回归模型验证了额外灭火资产的早期调度，以确保野火控制达到野火机构设定的阈值。

具有战术智能群体行为的物理天赋空中机器人：一种有效的协同设计方法

分类： 机器人技术, 多代理系统

作者： Prajit KrisshnaKumar, Steve Paul, Hemanth Manjunatha, Mary Corra, Ehsan Esfahani, Souma Chowdhury

发布时间： 2024-06-24

链接： http://arxiv.org/abs/2406.16612v1

摘要： 协作自主系统（例如机器人群）的集体性能或能力受到该集体中各个系统的形态和行为的共同影响。在此背景下，本文探讨了形态学如何影响执行侦察和搜救的无人机/地面机器人的习得战术行为。这是通过提出一个计算有效的框架来解决联合优化群体机器人的形态和战术行为这一具有挑战性的问题来实现的。为此，关键的新颖发展包括使用物理人才指标和修改图强化学习架构，以允许联合学习群体战术策略和限制移动性和物体/的人才指标（搜索速度、飞行范围和巡航速度）。执行这些策略的空中机器人具有搜索受害者的能力。这种协同设计方法的实施得到了基于 Pybullet 的开源群体模拟器的改进的支持，该模拟器允许使用可变的空中资产功能。在任务绩效指标方面进行比较时，观察到协同设计的结果优于采用固定帕累托设计的战术学习的结果。通过比较基线设计和协同设计结果，还观察到形态和学习行为的显着差异。

密集网络中移动边缘计算的分散式任务卸载和负载平衡

分类： 分布式、并行和集群计算, 机器学习, 多代理系统

作者： Mariam Yahya, Alexander Conzelmann, Setareh Maghsudi

发布时间： 2024-06-24

链接： http://arxiv.org/abs/2407.00080v1

摘要： 我们研究具有大量设备和一组边缘服务器的密集网络中的分散任务卸载和负载平衡问题。由于未知的网络信息和随机的任务大小，最优地解决这个问题是复杂的。共享的网络资源也会影响用户的决策和资源分配。我们的解决方案将平均场多代理多臂老虎机 (MAB) 游戏与负载平衡技术相结合，该技术可以调整服务器的奖励以实现目标人口概况，尽管用户决策是分布式的。数值结果证明了我们方法的有效性以及对目标负载分布的收敛性。

TornadoDrone：基于 DRL 的仿生无人机在风力干扰下在 6D 平台上着陆

分类： 机器人技术, 多代理系统

作者： Robinroy Peter, Lavanya Ratnabala, Demetros Aschu, Aleksey Fedoseev, Dzmitry Tsetserukou

发布时间： 2024-06-23

链接： http://arxiv.org/abs/2406.16164v2

摘要： 无人机自主导航面临着在动态平台上实现精确着陆的严峻挑战，特别是在风湍流等不可预测的条件下。我们的研究引入了 TornadoDrone，这是一种新颖的深度强化学习 (DRL) 模型，采用仿生机制来适应风力，反映了鸟类的自然适应性。与传统方法不同，该模型的适应性来自位置和速度变化等间接线索，而不是直接的风力测量。 TornadoDrone 在gym-pybullet-drone 模拟器中经过严格训练，该模拟器紧密复制了现实世界中风动力学的复杂性。通过在模拟和真实大风条件下对 Crazyflie 2.1 无人机进行广泛测试，TornadoDrone 在移动平台上保持高精度着陆精度方面表现出高性能，超越了带有扩展卡尔曼滤波器的 PID 控制器等传统控制方法。该研究不仅凸显了 DRL 应对复杂空气动力学挑战的潜力，还为能够实时适应环境变化的先进自主系统铺平了道路。 TornadoDrone 的成功标志着无人机技术的飞跃，特别是对于监视和应急响应等关键应用来说，可靠性和精确度至关重要。

INDICT：通过内部对话对安全性和实用性进行批评的代码生成

分类： 软件工程, 人工智能, 计算和语言, 密码学和安全, 多代理系统, 编程语言

作者： Hung Le, Yingbo Zhou, Caiming Xiong, Silvio Savarese, Doyen Sahoo

发布时间： 2024-06-23

链接： http://arxiv.org/abs/2407.02518v1

摘要： 代码的大型语言模型 (LLM) 通常经过训练，与自然语言指令保持一致，以严格遵循其意图和要求。然而，在许多实际场景中，这些模型在有用性和安全性之间的复杂边界之间导航变得越来越具有挑战性，特别是针对高度复杂但可能存在恶意的指令。在这项工作中，我们介绍了 INDICT：一个新框架，为大语言模型提供内部批评对话，以提供安全和有用的指导。内部对话是安全驱动的批评家和帮助驱动的批评家之间的双重合作系统。每个评论家都针对给定的任务和相应的生成响应进行分析，并配备通过相关代码片段和网络搜索和代码解释器等工具查询的外部知识。我们在代码生成阶段和代码执行阶段都采用双批评家系统，分别为大语言模型提供先发制人和事后指导。我们使用 7B 到 70B 参数的 LLM，通过 5 个基准测试、跨 8 种编程语言的 8 项不同任务对 INDICT 进行了评估。我们观察到，我们的方法可以提供对安全性和有用性分析的高级批评，显着提高输出代码的质量（所有模型中的绝对改进为 $+10%$）。

具有集中聚合的分散式 Transformer 是样本高效的多智能体世界模型

分类： 机器学习, 人工智能, 多代理系统

作者： Yang Zhang, Chenjia Bai, Bin Zhao, Junchi Yan, Xiu Li, Xuelong Li

发布时间： 2024-06-22

链接： http://arxiv.org/abs/2406.15836v1

摘要： 学习无模型强化学习（RL）代理的世界模型可以通过学习想象中的策略来显着提高样本效率。然而，为多智能体强化学习（MARL）构建世界模型可能特别具有挑战性，因为集中式架构中由于大量代理而产生的可扩展性问题，以及去中心化架构中由于相互之间的影响而产生的非平稳性问题。 - 代理之间的依赖性。为了解决这两个挑战，我们为 MARL 提出了一种新颖的世界模型，该模型学习分散的本地动态以实现可扩展性，并结合所有代理的集中表示聚合。我们利用富有表现力的 Transformer 架构，将动态学习视为离散标记上的自回归序列建模问题，以便对不同代理之间的复杂局部动态进行建模，并提供准确且一致的长期想象力。作为第一个基于 Transformer 的开创性多智能体系统世界模型，我们引入了 Perceiver Transformer 作为一种有效的解决方案，以在此上下文中实现集中式表示聚合。星际争霸多智能体挑战赛（SMAC）的结果表明，它在样本效率和整体性能方面都优于强大的无模型方法和现有的基于模型的方法。

基于深度学习的足球情境冲刺分类

分类： 机器学习, 多代理系统

作者： Hyunsung Kim, Gun-Hee Joe, Jinsung Yoon, Sang-Ki Ko

发布时间： 2024-06-21

链接： http://arxiv.org/abs/2406.15659v1

摘要： 足球运动中高强度跑动（或冲刺）的分析长期以来一直是体育科学研究人员和从业者感兴趣的话题。特别是，最近的研究建议根据冲刺的战术目的将其置于情境中，以更好地理解现代比洞赛的身体战术要求。然而，它们在可扩展性方面存在限制，因为人类专家必须为每场比赛手动对数百个冲刺进行分类。为了应对这一挑战，本文提出了一种深度学习框架，用于自动将足球中的冲刺分类为上下文类别。所提出的模型通过部署 Set Transformers 和双向 GRU 涵盖了足球中多智能体轨迹的排列不变性和顺序性质。我们使用通过人类注释者和基于规则的分类器协作制作的类别标签来训练模型。实验结果表明，我们的模型将测试数据集中的冲刺分为 15 个类别，准确率为 77.65%，这意味着所提出的框架在促进大规模足球冲刺综合分析方面具有潜力。

通信拓扑上的相界广播网络

分类： 计算机科学中的逻辑, 多代理系统

作者： Lucie Guillou, Arnaud Sangnier, Nathalie Sznajder

发布时间： 2024-06-21

链接： http://arxiv.org/abs/2406.15202v2

摘要： 我们研究所有执行相同有限状态协议并通过广播进行通信的进程网络。进程以图（拓扑）的形式组织，并且只有该图中进程的邻居才能接收其广播。可覆盖性问题询问，给定协议和协议状态，是否存在进程的拓扑使得其中一个（至少）达到给定状态。这个问题是无法判定的。我们在这里研究问题的欠近似，即进程在广播阶段和接收消息阶段之间交替有限次数$k$。我们证明，如果当 $k$ 大于 6 时问题仍然不可判定，则当 $k=2$ 时问题变得可判定，并且当 $k=1$ 时问题变得可判定。此外，我们还表明，如果我们将自己限制在线型拓扑中，则问题出在 $P$ 中，即 $k=1$ 和 $k=2$。

通过端到端强化学习制定通用谈判策略

分类： 多代理系统, 机器学习, I.2.11; I.2.6

作者： Bram M. Renting, Thomas M. Moerland, Holger H. Hoos, Catholijn M. Jonker

发布时间： 2024-06-21

链接： http://arxiv.org/abs/2406.15096v1

摘要： 自动谈判的研究领域在设计能够与其他代理进行谈判的代理方面有着悠久的历史。这种谈判策略传统上基于手动设计和启发式。最近，强化学习方法也被用来训练代理人进行谈判。然而，谈判问题是多种多样的，导致观察和行动维度发生变化，这是默认的线性策略网络无法处理的。之前关于该主题的工作已经通过修复协商问题（导致策略在协商问题之间不可转移）或通过将观察和操作抽象为固定大小的表示来规避此问题，从而导致由于特征设计而导致信息和表达能力的损失。我们通过将观察和行动表示为图表并在政策中应用图神经网络，开发了一种针对各种谈判问题的端到端强化学习方法。通过实证评估，我们表明我们的方法是有效的，并且我们可以学习与其他代理就从未见过的谈判问题进行谈判。我们的结果为谈判代理的强化学习开辟了新的机会。

霍克斯过程的非均匀动作数对空间合作的影响

分类： 多代理系统

作者： Daiki Miyagawa, Genki Ichinose

发布时间： 2024-06-21

链接： http://arxiv.org/abs/2406.15036v1

摘要： 尽管自然选择有利于理性的自身利益，但合作行为的出现却提出了一个重大的进化难题。进化博弈论阐明了为什么合作行为有利于生存。然而，行动频率不均匀的影响，特别是短期内改变行动时，很少受到学术界的关注。为了证明动作频率的不均匀性与合作进化之间的关系，我们进行了进化博弈的多智能体模拟。在我们的模型中，每个代理以链式反应执行操作，导致操作数量分布不均匀。为了实现各种非均匀的动作频率，我们引入了两种类型的连锁反应规则：一种是智能体的动作触发后续动作，另一种是智能体的动作依赖于其他人的动作。我们的结果表明，与完全一致的情况相比，即使在行动频率轻微不均匀的情况下，合作也会更有效地发展。此外，智能体的行为主要由自己之前的行为触发的场景更有效地支持合作，而由其他人的行为触发的场景则效果较差。这意味着一些高度活跃的个体对合作做出了积极贡献，而追随他人行为的倾向可能会阻碍合作。

信息不对称下协同任务的自治代理

分类： 人工智能, 计算和语言, 人机交互, 多代理系统, 社交和信息网络

作者： Wei Liu, Chenxi Wang, Yifei Wang, Zihao Xie, Rennai Qiu, Yufan Dang, Zhuoyun Du, Weize Chen, Cheng Yang, Chen Qian

发布时间： 2024-06-21

链接： http://arxiv.org/abs/2406.14928v1

摘要： 大型语言模型多代理系统（LLM-MAS）在解决复杂任务方面取得了巨大进步。它在系统内的Agent之间进行通信，在共享信息的前提下协同解决任务。然而，当利用代理的通信来增强人类合作时，由于信息不对称而出现了新的挑战，因为每个代理只能访问其人类用户的信息。以前的MAS在这种情况下很难完成任务。为了解决这个问题，我们提出了一种新的 MAS 范式，称为 iAgents，它表示信息多代理系统。在iAgents中，人类社交网络反映在代理网络中，代理主动交换任务解决所需的人类信息，从而克服信息不对称。 iAgents 采用新颖的代理推理机制 InfoNav 来引导代理的通信以实现有效的信息交换。 iAgents 与 InfoNav 一起在混合内存中组织人类信息，为代理提供准确、全面的信息进行交换。此外，我们还推出了 InformativeBench，这是第一个为评估 LLM 代理在信息不对称情况下解决任务能力而量身定制的基准。实验结果表明，iAgents 可以在 140 个人和 588 个关系的社交网络中进行协作，自主通信超过 30 轮，并从近 70,000 条消息中检索信息，在 3 分钟内完成任务。